1
Da Verossimilhança Estatística aos Problemas Convexos
MATH008Lesson 7
00:00

A inferência estatística pergunta: "Dado este conjunto de dados, quais são os parâmetros subjacentes mais prováveis?" Este slide conecta essa pergunta com Otimização Convexa. Transformamos a noção probabilística de verossimilhança em um programa estruturado, mostrando que, sob condições de log-concavidade, encontrar a melhor estimativa é equivalente a resolver um problema de otimização convexa.

O Quadro da Verossimilhança

A função de verossimilhança é a distribuição de probabilidade $p_x(y)$ considerada como uma função do parâmetro $x$ para uma amostra observada fixa $y$. Para estimar $x$, empregamos estimação de máxima verossimilhança (ML): escolhendo o valor que torna os dados observados mais prováveis.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Para eficiência computacional, usamos a função de log-verossimilhança, $l(x) = \log p_x(y)$. Como o logaritmo é uma função monotonicamente crescente, preserva a localização do máximo enquanto transforma produtos (de observações independentes) em somas fáceis de gerenciar.

O Programa de Otimização de MLE (7.1)

Formalizamos a estimativa como um programa matemático:

$$\begin{array}{ll} \text{maximize} & l(x) = \log p_x(y) \\ \text{subject to} & x \in C \end{array}$$ (7.1)

Este programa é um problema de otimização convexa se:

  • A função de log-verossimilhança $l$ é concava para cada valor de $y$.
  • O conjunto viável $C$ (informação prévia) é descrito por restrições lineares de igualdade e desigualdades convexas.

Integração de Restrições e Informações Prévias

A estimativa de máxima verossimilhança exige redefinir $p_x(y)$ como zero para $x \notin C$ para impor explicitamente restrições físicas ou prévias. No espaço de otimização, isso significa que a função de log-verossimilhança recebe o valor $-\infty$ para parâmetros $x$ que violam essas restrições, criando efetivamente uma barreira intransponível para o otimizador.

🎯 Princípio Central
A transição de "Máxima Verossimilhança" para "Programa Convexo" depende da concavidade da densidade logarítmica. Se o ruído ou a distribuição for log-concava, a estimativa estatística torna-se uma tarefa de otimização globalmente resolvível.